#AI 論文 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#AI 論文

姚順雨騰訊首篇論文：給AI下半場指路“上下文學習”

姚順雨，入職騰訊首席AI科學家後，參與的首個成果來了。CL-bench，專門用來測試大模型“從上下文中學習”的能力。這項研究與姚順雨一貫的研究思路高度契合，去年8月他在OpenAI期間發表的博文《下半場》曾提出一個被反覆引用的判斷：AI正處在“中場休息”階段，上半場是訓練大於評估，下半場將是評估大於訓練。真正重要的不是繼續堆模型規模，而是讓模型在真實任務、真實系統中經得起檢驗。CL-bench的評測結果相當扎心，當前最強的GPT-5.1 (High)，任務解決率只有23.7%。換句話說，即便把解題所需的全部資訊都喂給模型，它依然在超過四分之三的任務上栽了跟頭。為什麼需要上下文學習研究團隊在部落格中開門見山地指出了一個被忽視的問題：今天的前沿模型是頂級的“做題家”，能解奧數、能寫程式碼、能通過人類需要苦讀數年才能拿下的專業資格考試。但這能在考場拿滿分的學生，未必能勝任真實世界的工作。部落格中舉了三個人類日常生活的例子：開發者掃過從未見過的工具文件就能立刻偵錯程式碼；玩家拿起新遊戲的規則書在實戰中邊玩邊學；科學家從複雜的實驗日誌中篩選資料推匯出新的結論。這些場景中，人類並不只依賴多年前學到的死知識，而是在即時地從眼前的上下文中學習。然而今天的語言模型並非如此。它們主要依賴“參數化知識”，即在預訓練階段被壓縮排模型權重裡的靜態記憶，在推理時更多是在呼叫這些封存的內部知識，而不是主動從當前輸入的新資訊中汲取營養。團隊用一句話概括了這個矛盾：我們造出了依賴“過去”的參數推理者，但世界需要的是能吸收“當下”環境上下文的學習者。CL-bench：500個複雜上下文，一個簡單但苛刻的要求為了量化這個差距，團隊建構了CL-bench。這個基準包含由資深領域專家精心製作的500個複雜上下文、1899個任務和31607個驗證標準。設計原則只有一條：解決每個任務要求模型必須從上下文中學習到預訓練中不存在的新知識，並正確應用。模型需要學習的知識非常廣泛，包括新的領域知識、不熟悉的規則系統、複雜的產品工作流，甚至是必須從實驗資料中推導歸納出的定律或結論。所有這些知識要麼是由領域專家完全新建構的，要麼是取自那些不太可能出現在當前前沿模型訓練資料中的小眾、長尾來源。具體來說，CL-bench涵蓋了四種現實世界的上下文學習場景：領域知識推理，比如虛構的法律體系或創新的金融工具；規則系統應用，比如新的遊戲機制或程式設計語法；程序性任務執行，比如工作流和產品手冊；以及最具挑戰性的經驗發現與模擬，要求模型從資料中歸納出潛在規律。團隊展示了幾個任務案例：在一部長達2.3萬字、剛剛生效的新法律下判一起真實糾紛；基於一門新設計的教育程式語言規範實現一個帶有時間條件終止的周期性程序；在一套從未見過的程式設計框架中執行程式碼；在給定技術規格和長期環境政策情景的條件下模擬關鍵技術金屬的可持續全球供應。為了確保測試結果反映的是真正的上下文學習能力而非資料洩露或記憶，團隊採用了無污染設計：專家創作完全虛構的內容，或修改現實世界的內容建立變體，或整合在預訓練資料集中代表性極低的小眾內容。論文特別提到，在不提供任何上下文的情況下，GPT-5.1 (High)僅能解決不到1%的任務，有力證明了模型若不從上下文中學習幾乎完全無法解決這些任務。平均而言，領域專家花費約20小時標註每個上下文，以確保任務建構的質量和深度。十個前沿模型集體翻車即使提供上下文，當前模型的表現也好不到那去。團隊在CL-bench上評估了十個最先進的語言模型，結果揭示了當前模型幾乎不能從複雜上下文中學習來解決真實場景的問題。平均而言，模型僅解決了17.2%的任務，即便是表現最好的GPT-5.1 (High)也僅達到23.7%。錯誤分析顯示了幾個值得注意的現象。忽略或誤用上下文是導致失敗的主要原因，許多錯誤並非源於資訊缺失，而是源於模型忽視了上下文中的關鍵細節或錯誤地應用了它們。在許多情況下，模型只會利用預訓練學習到的靜態知識來解決任務，即使上下文明確定義了新的規則、概念或程序，模型也不會學習和利用。此外，從實驗資料和環境模擬中進行歸納推理比演繹應用更困難。演繹任務讓模型根據上下文中明確給出的規則和流程進行應用，而經驗發現和環境模擬類任務則要求歸納推理。模型在這類任務上的表現明顯較差，任務解決率通常低於10%，且結果波動大。更高的推理強度通常能提升上下文學習效果，但提升有限。例如GPT-5.1在管理類和實驗資料類任務上的表現提升約6%，但其他模型提升有限甚至可能下降，說明單靠更多推理並不足夠，模型還必須能夠正確吸收和組織上下文資訊。研究團隊最後寫道：CL-bench充分解釋了語言模型在真實場景中為什麼經常出錯：即使有了上下文工程，給模型準備好了所需的上下文，模型也會失敗。如果模型不能真正從中學習，僅僅提供上下文是不夠的。從“AI下半場”到騰訊首席AI科學家與其繼續刷榜，不如先搞清楚模型到底還差在那兒。CL-bench某種程度上正是姚順雨關於AI下半場這一判斷的具體實踐。這項研究由騰訊混元和復旦大學團隊合作完成，共同一作Shihan Dou、Ming Zhang、Zhangyue Yin。致謝部分提到，從上下文中學習新知識的想法最早源於Pluto Zhou在2024年提出的設想，同時特別感謝姚順雨提供的鼓勵以及多次寶貴建議，稱“他的全面而細緻的審閱和反饋，極大地幫助我們進一步提升了這項工作的質量”。姚順雨今年1月正式加盟騰訊，職位是騰訊總辦首席AI科學家，向騰訊總裁劉熾平匯報，同時兼任AI Infra部、大語言模型部負責人向技術工程事業群總裁盧山匯報。團隊在最後也留下了下一步研究思路：起碼在當下，我們的目標是很明確：讓上下文學習真正走向現實。 (量子位)

MIT發現讓AI變聰明的秘密，竟然和人類一模一樣

【新智元導讀】你有沒有發現，你讓AI讀一篇長文章，結果它讀著讀著就忘了前面的內容？你讓它處理一份超長的文件，結果它給出來的答案，牛頭不對馬嘴？這個現象，學術界有個專門的名詞，叫做上下文腐化。這也是目前AI的通病：大模型的記憶力太差了，文章越長，模型越傻！2025年最後一天，麻省理工學院（MIT）丟了一篇重磅論文，就是要解決這個問題的。這篇論文叫《Recursive Language Models》，也就是遞迴語言模型。看起來很學術，但說人話就一句：讓AI再做一遍，效果直接起飛。先劇透兩個核心資料：在複雜推理任務上，僅僅讓模型多過2-4遍，正確率就能提升10%-25%在超長文件處理上，RLM（遞迴語言模型）在1000萬+token的規模下，依然保持穩定表現，而傳統模型直接崩盤！這啥概念？以前我們覺得，AI不夠聰明，那就給它堆參數、加顯示卡、買更多GPU。MIT這篇論文直接掀桌子：別堆參數了，讓它返工重寫一遍，效果可能更好。（真就是人類監工了）原來解決問題的方法就是這麼簡單！並且X上很多大佬紛紛點贊～從一個讓人崩潰的問題說起你有沒有這種經歷：讓ChatGPT幫你寫一篇文章，它洋洋灑灑寫了三千字，你一看——臥槽，離題萬里。或者讓它幫你寫程式碼，它寫完了，一運行——全是bug。但神奇的是，你讓它再檢查一遍、重新想想，有時候它就突然能改對了。MIT的研究人員發現，這不是玄學，這是有規律的。大多數AI犯的錯，不是因為它不懂，而是因為它初稿寫太快了。就像你寫論文，第一稿總是稀爛，但改個三四遍，就像換了個人寫的。AI也是一樣。問題是：現在的大模型基本都是一遍過的模式，你輸入問題，它輸出答案，完事。它自己不會主動返工、不會自我檢查、不會反覆推敲。或者換一個思路來理解大模型原先的思路：假設你是一個剛進公司的實習生，領導給你發了一份500頁的資料，讓你整理出一份報告。你會怎麼做？正常人的做法是：先翻一翻，找到重點章節，然後一章一章地讀，讀完一章做個總結，最後把所有總結串起來。對吧？但大模型不是這麼幹的。大模型的做法是：直接把500頁資料從頭到尾一口氣讀完，然後嘗試憑記憶回答問題。這能記住才有鬼了。這就是大模型面臨的困境。它不是不聰明，它是記不住。MIT這篇論文干的事兒，就是給AI裝上了一個返工的能力。AI的真正瓶頸：不是腦子不夠大，是記性太差在聊MIT的解決方案之前，我得先跟你說清楚，為什麼這件事這麼重要。你可能聽說過一個詞，叫上下文窗口。啥意思呢？你可以把AI大模型想像成一個天才，但是這個天才有個致命缺陷——他的工作台太小了。你給他一份超長的資料，讓他幫你分析，但他只能把資料的一小部分放到工作台上看。超過工作台大小的部分？看不到，直接忽略。現在最牛逼的GPT-5，工作台能放27萬個token（大約相當於20萬字中文）。聽著挺厲害的對吧？但問題來了。就是說，那怕是在這27萬token的限制之內，模型的表現也會隨著輸入變長而急劇下降。當你給它8000個token的時候，它表現賊棒。給它8萬個token的時候，它開始有點迷糊。給它27萬個token的時候，它直接開始胡說八道。為什麼？因為資訊太多了，它處理不過來了，腦子亂了。就像讓一個人同時記住一整本百科全書然後回答問題——記是記住了，但找不到了。這就是大模型現在的困境：不是上下文窗口不夠長，而是長了也用不好。MIT的天才想法：把資料放到抽屜裡好了，問題講清楚了，現在來看MIT的解決方案。傳統做法是：你把資料直接塞進AI的腦子裡。MIT的做法是：別塞進去了，放抽屜裡吧。他們發明了一個叫RLM的東西。RLM的核心思路是：不要讓AI直接讀那份巨長的資料，而是讓AI用程式碼去翻那份資料。打個比方。以前的AI，就像一個學生，你把一整本教科書拍在他面前說：看完，然後回答我的問題。學生：？？？我看不完啊，我能不能看一部分？然後他就硬著頭皮看前面的一部分，後面的直接放棄。RLM的做法不一樣。它更像是給這個學生配了一個目錄系統和搜尋引擎。資料還是那份資料，但學生不用從頭到尾讀了。他可以先翻目錄，看看大概結構，然後針對問題去搜尋相關段落，把有用的資訊摘出來。更牛的是，這個學生可以把一個複雜問題拆成好幾個小問題，然後——注意重點來了——他可以召喚自己的分身，讓分身去同時處理各個小問題，最後彙總答案。這就是遞迴的意思：AI可以呼叫自己的分身，讓自己幫自己幹活。或者再降維一下理解就是：它把這份超長的文件，當成一個放在外面的資料庫，而不是直接塞進腦子裡。然後，模型可以寫程式碼，自己去查這個資料庫。需要第一章的內容？寫個程式碼去查。需要第十章的內容？再寫個程式碼去查。需要把第一章和第十章的內容對比？那就先查第一章，做個總結，再查第十章，做個總結，最後把兩個總結合起來。這就像是一個有無限容量的外接硬碟。模型的腦子裡裝不下那麼多東西，沒關係。可以隨時去硬碟裡查，用到什麼查什麼。這樣一來，理論上，模型可以處理無限長的文件。具體怎麼做的？MIT的實現方式其實挺優雅的。他們給AI配了一個Python程式設計環境（REPL），把那份超長的資料存成一個變數。然後AI不再直接去讀這份資料，而是用程式碼去操作它。比如：想看資料有多長？寫一行程式碼len(input_text)就知道了想看資料的前1000個字元？寫input_text[:1000]想在資料裡搜尋關鍵詞？寫個正規表示式更厲害的是，AI可以把這份資料分段，把每一段交給一個子AI去處理，然後自己彙總結果。這個子AI，用的其實是同一個模型，只不過是遞迴呼叫自己。這個設計有兩個巨大的好處：第一，AI不用在腦子裡記住那份超長資料了。資料就放在外面的抽屜裡，需要的時候用程式碼去取。這就意味著，理論上，資料可以無限長——只要抽屜夠大。第二，AI可以自己判斷需要看什麼、不需要看什麼。它不會傻乎乎地從頭讀到尾，而是會聰明地挑重點看。這大大節省了計算成本，也提高了準確率。效果到底有多猛？MIT在論文裡做了一堆實驗，結果還是挺震撼的。實驗一：超長文件理解他們用了很多測試機，其中一個叫OOLONG的測試集，這個測試需要AI理解超長文件，並回答需要綜合全文資訊才能回答的問題。結果：GPT-5基座模型的精準率44%，而RLM達到了56.5%。而在CodeQA中，GPT-5基座模型的精準率24%，而RLM達到了62%，直接提升了2.7倍！實驗二：超超超長文件（1000萬+token）他們還把文件長度一路拉到1000萬token以上（相當於幾十本書的長度）。GPT-5？壓根處理不了，直接爆炸。RLM(GPT-5)？穩穩當當，表現基本不掉。這是一個質的飛躍。實驗三：成本對比你可能會想：這麼牛逼的東西，是不是巨貴？神奇的是，並沒有。在BrowseComp-Plus基準測試中，讓GPT-5-mini直接處理600萬-1100萬token的輸入，成本大約是1.5-2.75美元。而RLM(GPT-5)的平均成本只有0.99美元。更便宜，效果還更好。為什麼？因為RLM不會傻傻地把所有內容都讀一遍，它唯讀需要的部分。這個發現為什麼重要？MIT這篇論文的意義，遠不止於讓AI處理更長的文件。它揭示了一個更根本的道理：AI的能力邊界，不只取決於模型本身有多大、參數有多多，還取決於你怎麼使用它。以前我們的思路是：模型不夠強——那就加參數。MIT告訴我們：等等，也許不用加參數，讓它多想幾遍就夠了。回到開頭提到的那個發現：在多步推理任務中，僅增加2-4次遞迴處理，正確率就能提升10%-25%。大約4次迭代後，收益逐漸趨於平緩。這說明什麼？大多數AI犯的錯，都是初稿錯誤：不是它不懂，是它第一遍太草率了。讓它返工幾次，就能改對。（所以有時候，你在使用AI時，還真的當個監工，讓AI多輸出幾次）這跟人類其實一模一樣。任何牛逼的程式設計師都知道，第一版程式碼永遠是最爛的，程式碼質量是改出來的，不是寫出來的。任何牛逼的作家都知道，第一稿永遠是廢稿，好文章是改出來的，不是寫出來的。現在，AI也一樣了。未來展望MIT在論文最後提到，這只是一個開始。目前的RLM還有很多可以最佳化的地方：1.非同步呼叫：目前子任務是一個接一個執行的，如果能平行執行，速度會更快。2.更深的遞迴：目前只允許一層遞迴（AI呼叫自己的分身），如果允許分身再呼叫分身，理論上能處理更複雜的任務。3.專門訓練：目前RLM用的是現成的大模型，如果專門為遞迴思考訓練一個模型，效果可能更猛。MIT的研究者們相信，這可能代表了大模型能力擴展的一個新方向：不是一味地堆參數、堆算力，而是讓模型學會更聰明地思考。彩蛋MIT這篇論文，讓我想起了一個老笑話：客戶問程式設計師：這個bug你修了多久？程式設計師說：5分鐘。客戶說：那為什麼收我500塊？程式設計師說：找出問題在那，花了我3天。AI也是一樣。它的思考時間遠比我們想像的更重要。給它一點返工的機會，它可能就能從還行變成牛逼。這也許就是下一代AI進化的方向：不是更大的腦子，而是更深度的思考。 (新智元)

AI 能寫詩能寫論文，卻連杯子轉 90 度都猜不對？“AI教母”李飛飛道破真相

AI 能寫詩、寫論文，卻連杯子轉 90 度啥樣都猜不對？！最近矽谷被一篇萬字長文炸翻了，作者是華人 AI 圈的傳奇 —— 李飛飛，圈內人都喊她 “AI 教母”。她在文章裡直接開炮：現在的 AI 看著能說會道，其實全是 “睜眼說瞎話”！嘿，朋友，你是不是也覺得 AI 特別牛？寫文案、做總結、甚至模仿名人說話，樣樣都行。可李飛飛這話一出來，好多人都懵了：AI 明明這麼厲害，怎麼會是 “睜眼瞎”？咱們拿實際情況說說。讓 AI 寫首詩，它分分鐘模仿李白杜甫的調調，辭藻華麗得沒話說。可你要是讓它估估你家桌子到門的距離，或者猜猜杯子旋轉 90 度會變成啥樣，它就徹底露餡了，全靠瞎蒙。那些刷到的炫酷 AI 視訊，你仔細看全是破綻：視訊裡的人突然多了根手指，小物件毫無徵兆就穿牆而過，完全不符合咱們現實裡的規矩。李飛飛說，這不是 AI 不夠努力，而是咱們給它指錯了方向。AI 的未來，不在於搞更大的語言模型，而在於擁有一種連小嬰兒都有的能力 —— 空間智能。這可是通往真正通用人工智慧的唯一路徑。那到底啥是空間智能呢？其實就是咱們理解和互動物理世界的本能。小嬰兒靠抓東西、扔東西、咬東西認識世界；你半夜起床倒水，不用開燈也能摸準杯子的位置；朋友扔鑰匙給你，你不用算什麼拋物線，伸手就能接住。歷史上好多改變文明處理程序的重大發現，也離不開這種能力。有人通過觀察影子的長度，就算出了地球的周長；還有科學家通過搭建 3D 模型，發現了 DNA 的雙螺旋結構。這些事兒，光靠只會讀寫的語言模型，永遠也做不到。李飛飛給出的解決方案很明確：讓 AI 從 “語言模型” 轉向 “世界模型”。一個真正靠譜的世界模型，得具備三種核心能力：✅ 能生成符合物理定律的虛擬世界，裡面的一切都得按現實規矩來；✅ 能理解和整合文字、圖像、動作等多種指令，不光能聽懂你說的話，還能看懂你做的事；✅ 最關鍵的，能精準預測互動結果 —— 簡單說，就是讓 AI 真真正正 “看懂” 這個世界。這可比訓練語言模型難多了。語言是一維的，就像一條直線；而世界是四維的，包含三維空間和時間，還得遵守無數物理定律。要是 AI 真的擁有了空間智能，那日子可就太有意思了！李飛飛團隊已經開發出了相關模型，現在電影製作人、遊戲設計師，只用口頭描述，就能生成可互動的 3D 世界。以後人人都能當 “造物主”，不用學複雜的 3D 軟體，也能實現自己的創意。機器人也不會再笨手笨腳了。它們能在模擬環境中學會成千上萬種技能，走進家庭幫著做家務，走進醫院協助醫生，成為咱們的得力助手。最讓人期待的是科學與教育的加速發展。學生可以 “走進” 古羅馬的街道，或者鑽進細胞內部，直觀感受知識；醫生能在 AI 的輔助下，更快發現疾病；科學家還能模擬深海、外太空這些人類難以抵達的地方，探索更多未知。李飛飛說得特別好：AI 的終極目標不是取代人類，而是為人類賦能。現在的大語言模型，只是 AI 發展的一個開始。真正的智能，是讓機器理解我們生活的物理世界。最後想問問大家：如果 AI 真的掌握了空間智能，你最想讓它幫你造一個什麼樣的世界？快來評論區聊聊你的奇思妙想吧！ (前程有鵬友)

神了！GPT-5“靈感湧現”，幫頂級量子科學家突破論文關鍵函數步驟

“這是我目前發過的所有論文裡，第一次有關鍵技術步驟是由AI搞定的，思路源自GPT-5-Thinking。”當下頗具影響力的理論電腦和量子計算大牛Scott Aaronson在最新發表的部落格文章中如此感慨道。Scott Aaronson是誰？他被廣泛認為是當今最聰明的人之一，80後科學家，學術圈知名度跟陶哲軒不分伯仲，他現任美國德克薩斯大學奧斯汀分校百年講席教授，並擔任該校量子資訊中心創始主任。Aaronson是量子計算與複雜性理論的奠基者，曾與同事共同提出“高斯玻色取樣”這一量子計算任務，為實驗驗證 “量子霸權”（quantum supremacy）奠定了理論基礎，目前已是成為全球頂尖科研機構量子計算實驗的重要參照系。究竟發生了什麼讓這位聰明的科學家對AI刮目相看並讚賞有加？GPT-5給科學家提出“關鍵”建議事情發生在幾天前，Scott Aaronson和荷蘭國家數學和電腦科學研究所（CWI）的Freek Witteveen合作，在arXiv上發表了一篇題為《量子複雜度類QMA中黑箱放大的侷限性》的論文。Aaronson在量子計算的基礎理論領域貢獻卓著。2008年，他通過構造量子諭示（quantum oracle）證明了量子複雜度類QMA（量子梅林-亞瑟）與QMA₁（具有完美完備性的QMA）的分離，即存在某些問題在量子計算模型下無法實現100%的驗證精準率。這一結果為量子計算的能力邊界劃定了重要標尺，被學界視為該領域的經典之作。簡單來說，新論文研究了量子複雜度類QMA（量子梅林-亞瑟）中黑箱放大的侷限性。可以把QMA想像成一場“量子批卷考試”，有兩個角色：梅林相當於“學生”，亞瑟相當於“老師”。科學家都希望老師批卷能“全對”—— 也就是“只要答案是對的，就100%判對”（專業詞彙叫作“完美完備性”）。在經典數學裡（比如普通的電腦演算法），“批卷老師”（經典版MA）早就能做到“百批百對”，但到了量子計算領域，問題就卡殼了，想把量子批卷的“判對誤差”縮到超級小非常困難，而現在Aaronson證明，任何QMA協議，都能通過黑箱方法，把完備性誤差縮小到“雙重指數級”。在這篇論文論證過程中，當時他們卡在一個“數學坎”上：要分析一個特別複雜的“量子公式”（專業叫N×N埃爾米特矩陣），對於他們而言大概需要一兩周時間去查文獻、測試不同的解題思路。但為了省點時間，這次他們嘗試向GPT-5-Thinking提問。一開始，它5分鐘就給了一個答案：看起來自信又合理，但作為資深科學家，Aaronson一眼就看出其不對的地方，不過沒直接否定，而是繼續告訴它“那裡出錯了”，接著，它又重新思考、道歉，再給出新方案——整個過程像極了教授和研究生或同事討論問題。大概半小時後，GPT-5-Thinking建議兩位科學家研究一個新函數，而且經驗證後發現：這方法居然真的管用！Aaronson表示：如果這是人類學生提出的思路，我肯定會誇他“腦子轉得真快”，很多時候，科研難題就差這麼一層“窗戶紙”，誰捅破誰厲害，到了2025年9月，AI終於“進軍”了“最具人類代表性的智力活動”——量子複雜度類的諭示分離證明。當然，現在AI還幾乎不可能獨立寫出一篇“正確且高品質”的科研論文，但它能作為“科研搭子”，幫那些“本身知道大概方向的研究者突破靈感和瓶頸”——這無疑是一個“黃金階段”。Aaronson調侃說：幸好我有終身教職（不用擔心被AI“搶飯碗”）。AI正在成為核心“合著者”2025年，AI與頂尖科研人員的協作已從“輔助工具”階段躍升至“深度協同”階段，在多個基礎科學與技術前沿領域取得了革命性進展，“科學突破”的速率可能越來越快。即便是基礎科學，也不再是“人類的獨角戲”。例如，中國科學技術大學團隊與上海人工智慧實驗室合作，利用深度學習技術建構了包含2024個原子的無缺陷量子計算陣列，創下新的世界紀錄，這一突破使量子電腦的規模化成為可能，為量子糾錯和實用演算法開發奠定了基礎。歐洲核子研究中心（CERN）的ATLAS實驗團隊通過百萬級模擬資料訓練的深度神經網路，首次在13TeV質子-質子碰撞中探測到縱向極化W玻色子，驗證了希格斯機制對粒子質量起源的關鍵預測。GPT-5在“哥德爾測試”中成功解決三大組合最佳化猜想，提出的解法徹底顛覆了人類研究者的原有思路，被媒體評價為“首次實現AI在數學發現中的真正創造性貢獻”。AI還創造出了自然界中不存在的、具有全新化學結構的分子，其中兩個先導化合物在動物模型中成功殺滅了兩種“超級細菌”。這些突破背後，是AI與人類科學家協作範式的重構。AI開始能參並提出有價值的科研問題和思路，同時也使高通量驗證成為可能，或許不久之後，經過學術倫理認定，AI會成為名副其實的論文合著者。被罵慘的OpenAI儘管科學家對GPT-5的表現讚賞有加，但普通使用者能不能用到高配版模型並不好說。近日，OpenAI被曝在付費使用者不知情的情況下，偷偷將ChatGPT的GPT-4、GPT-5等高階模型切換至兩款低算力的“秘密模型”——gpt-5-chat-safety和gpt-5-a-t-mini，引發使用者一片聲討。不少使用者氣憤地表示，這種隱性的剝奪以及公然違背產品倫理的行為，正在嚴重損害使用者的選擇權、情感權利和經濟信任，這不僅僅是一個技術或產品問題，而是一家全球人工智慧公司以卑鄙的手段背叛使用者的信任和喜愛。儘管OpenAI副總裁Nick Turley回應稱是因為正在測試新安全系統，強調“僅針對敏感話題臨時切換”，且“詢問時會告知模型資訊”，但這一解釋未能平息質疑，使用者協議未提及模型動態替換條款，部分使用者發起集體訴訟，指控OpenAI構成“欺騙性商業行為”。OpenAI創始人兼首席執行官Sam Altman並未對“GPT降智門”事件進行回應，但在近期採訪時表示，預計新一代AI模型將於2026年問世，並聲稱它的進步可能會“相當令人驚訝”，到2030年，人工智慧或將真正超越人類智能。 (頭部科技)

蘋果一紙論文“打臉”整個AI圈：你們的推理AI都是假的？

2025年6月7日，距離蘋果WWDC僅僅兩天，一篇標題極具話題性的研究論文突然出現在蘋果機器學習官網：《思考的幻覺：通過問題複雜度視角理解推理模型的優勢與侷限》。這個時機選擇堪稱"完美"——所有人都在期待蘋果在即將到來的開發者大會上展示如何追趕OpenAI、Google等AI巨頭，結果蘋果反其道而行之，直接質疑整個"推理AI"的根基。有人稱讚蘋果就像是站出來說"皇帝沒有穿衣服"的小孩，也有人質疑蘋果在為AI競爭格局中的落後找藉口而已。一、社交媒體的"恐慌"：AI圈為何如此震動？蘋果這篇論文在社交媒體上引發熱論，在Twitter上，一條解讀蘋果論文的推文獲得了超過1000萬的瀏覽量。爭論主要分為幾派：悲觀派："這篇論文證明了這些模型本質上只是機率錄音機，而不是真正的思考機器。"技術派：認為模型的失敗源於輸出token限制，而非推理能力缺陷。方法論質疑派：指出蘋果用解答長度作為難度指標存在問題，可能誤導了結論。專家圈也出現分化，著名AI學者Gary Marcus將這篇論文稱為對大模型的"毀滅性打擊"，他的評論區成了"戰區"——風險投資人與電腦科學教授激烈爭論是否會迎來"AI寒冬2.0"。二、巧妙的實驗設計：四個遊戲戳破“神話”蘋果研究團隊摒棄了傳統的數學和編碼基準測試，轉而設計了一套基於經典謎題的測試環境：四種拼圖環境（漢諾塔、跳棋交換、過河問題、積木世界）為什麼選擇謎題而非傳統基準？傳統AI基準測試存在嚴重問題：- 資料污染：模型可能在訓練時見過類似題目- 難度不可控：無法精確調節問題複雜度- 評估單一：只看最終答案，忽略推理過程蘋果選擇的四個謎題各有深意：- 河內塔：通過增加圓盤數量可以精確控制難度，最少步數為2^N-1步，是測試遞迴推理的經典問題。- 跳棋交換：線上性棋盤上通過滑動和跳躍來交換棋子位置，測試序列規劃能力。- 過河問題：多個角色需要在安全約束下通過小船渡河，考驗約束條件下的邏輯推理。- 積木世界：重新排列堆疊積木以達到目標配置，評估空間推理能力。三、令人震驚的三段式崩潰模式實驗結果徹底顛覆了人們對"推理AI"的認知。所有被測試的推理模型——包括Claude 3.7 Sonnet、DeepSeek-R1、o3-mini等——都展現出了相同的三段式表現：思考模型與非思考模型在不同複雜度下的精準率對比圖第一階段：低複雜度的"過度思考"陷阱在簡單問題上，推理模型的表現竟然比標準LLM更差。更令人啼笑皆非的是：模型常常先找到正確答案，然後繼續"深度思考"，最終推翻了正確答案。這就像一個學生做1+1=2的題目，先得出正確答案，然後"越想越複雜"把答案改錯了。第二階段：中等複雜度的短暫輝煌在中等複雜度問題上，推理模型確實展現出優勢，精準率明顯高於標準LLM。這也解釋了為什麼這些模型在現有基準測試中表現亮眼。第三階段：高複雜度的集體投降最令人震驚的發現是：當問題複雜度超過某個閾值時，所有模型的精準率都歸零。推理模型的精準率與思考Token用量隨複雜度變化的關係更反直覺的是，隨著問題變難，這些模型的"思考"時間反而開始縮短。就像一個學生遇到難題時直接放棄，連嘗試都不願意。以河內塔為例：3-5個圓盤：推理模型表現良好8個圓盤：精準率急劇下降15個圓盤以上：精準率歸零，模型"懶得思考"最致命的發現：演算法執行的徹底失敗研究中最顛覆認知的發現是：即使給模型提供了完整的解題演算法，它們仍然無法正確執行。研究團隊在提示詞中詳細描述了河內塔的遞迴解法，但模型的表現並沒有顯著改善。這說明問題不在於"不知道怎麼做"，而在於"無法可靠地執行已知步驟"。這個發現徹底打破了一個普遍假設：給AI足夠清晰的指令，它就能正確執行。現實是，當任務足夠複雜時，即使有了"標準答案"，AI仍然會失敗。資料說話：GSM-Symbolic的驚人發現蘋果在論文中還引用了另一項重要研究GSM-Symbolic，進一步證實了推理模型的侷限性：來自5,000道數學題的測試資料顯示，每當在題目中加入"無關資訊"時，模型的表現就會顯著下降。Google的T5-v4模型，精準率從95%暴跌至63.1%，OpenAI推理模型o1-preview從96%下降到77.4%，小型模型從85%崩塌至僅18%。這進一步證明了模型依賴模式匹配而非真正的邏輯推理。四、深層反思：什麼才是真正的AI推理？蘋果的研究引發了一個根本性問題：什麼才算真正的推理？模式匹配vs 符號推理傳統電腦科學認為，真正的推理需要：符號操作能力：能夠處理抽象符號和規則邏輯規則執行：嚴格按照邏輯步驟進行推導系統性泛化：能夠將學到的規則應用到新場景可驗證性：推理過程可以被檢驗和驗證而大語言模型本質上是統計系統：通過大量文字學習模式生成機率上合理的輸出缺乏顯式的邏輯操作機制難以保證推理的一致性"思維鏈"的真面目蘋果的研究揭示，所謂的"思維鏈"可能只是：更複雜的模式匹配：學會了"看起來像在思考"的表達方式序列生成最佳化：通過更長的輸出序列提高某些任務的精準率偽推理過程：沒有真正的邏輯執行，只是統計關聯一位評論者說："這些模型更像是'機率錄音機'而不是思考機器。"五、業界的激烈反應：分化與思考支持者的聲音紐約大學教授Gary Marcus直言這是對LLM的"致命一擊"，認為"蘋果論文最根本地顯示，無論你如何定義AGI，LLMs都無法替代設計良好的傳統演算法。"。認為推理模型達到了根本性的擴展極限，還沒有擺脫幻覺，“如同賽車卡在一檔，加速度嚇人，但爬山能力為零”。質疑者的反駁也有研究者提出不同觀點：1. 人類基準缺失：論文沒有對比人類在相同任務上的表現。許多人類處理8個圓盤的河內塔時同樣會失敗。2. 任務代表性問題：這些謎題可能並不代表真實世界的推理需求。3. 評估方法侷限：僅以最終答案正確性評判可能忽略了推理過程中的有效思考。六、WWDC 2025的現實回應：實用AI vs 推理AI有分析師認為，蘋果發佈這篇論文是別有用心，試圖先通過研究降低外界對AI推理能力的期望，再在WWDC上推出務實可靠的AI功能，既避免陷入"推理AI"的炒作陷阱，又能凸顯Apple一直專注於真正有用的AI應用。事實證明，這個分析可能是對的。WWDC 2025的發佈完美詮釋了蘋果的實用AI哲學。6月9日的WWDC 2025上，蘋果的AI戰略與這篇論文形成呼應。當其他廠商都在追求"更大、更強、更會思考"的模型時，蘋果選擇了一條截然不同的道路。蘋果的"液態玻璃"設計哲學蘋果在WWDC 2025上推出的"Liquid Glass"設計語言也許是個隱喻——蘋果希望AI像液態玻璃一樣：透明可見：使用者知道AI在做什麼流暢自然：無縫融入日常使用適應環境：根據場景調整功能美觀實用：形式服務於功能實用AI功能的務實推進蘋果在WWDC 2025上發佈的AI功能都極其務實：即時翻譯：在電話通話、FaceTime等場景下的即時語言翻譯Visual Intelligence升級：使用者可以搜尋螢幕截圖中的任何內容智能快捷指令：AI驅動的自動化操作，但專注於具體任務語音郵件摘要：基於Apple Intelligence的實用功能開放基礎模型，而非推理模型最重要的是，蘋果宣佈向開發者開放Apple Intelligence的基礎模型框架，而不是推理模型。這與市面上主推"思考型AI"的廠商形成了鮮明對比。正如媒體評論所說："蘋果在這次WWDC上的發佈更側重於漸進式的改進，比如通話即時翻譯等能改善日常生活的功能，而非像競爭對手那樣宣傳宏大的AI願景。結語：從幻覺到現實蘋果的《思考的幻覺》不是要否定AI的價值，而更像是“AI現實主義”，提醒保持理性。在這個AI炒作甚囂塵上時，承認侷限，務實前行。或許需要考慮重新校準期望值，不要高估當前AI的推理能力，避免被"思考型AI"的行銷話術誤導。傳統基準測試的侷限性也被暴露，需要開發更嚴格的評估框架。對於AI產品設計而言，則要考慮簡單任務，標準LLM可能更高效；中等複雜度任務，推理模型有明顯優勢；而高複雜度任務需要混合方案或傳統演算法。與其追求虛幻的"思考能力"，不如專注於建構真正有用、可靠、可控的AI系統。真正的進步來自於對現實的清醒認識，而不是對概念的無限吹捧。 (JER學家)

AI圈驚天醜聞，Meta作弊刷分實錘？頂級榜單曝黑幕，斯坦福MIT痛斥

【新智元導讀】剛剛，LMArena陷入了巨大爭議，斯坦福MIT和Ai2等的研究者聯手發論文痛斥，這個排行榜已經被Meta等公司利用暗中操作排名！Karpathy也下場幫忙錘了一把。而LMArena官方立馬回應：論文存在多處錯誤，指控不實。已經有越來越多的人發現：大模型排行榜LMArena，可能已經被大廠們玩壞了！就在最近，來自Cohere、普林斯頓、斯坦福、滑鐵盧、MIT和Ai2等機構的研究者，聯手祭出一篇新論文，列出詳盡論據，痛斥AI公司利用LMArena作弊刷分，踩著其他競爭對手上位。論文地址：https://arxiv.org/abs/2504.20879與此同時，AI大佬、OpenAI創始成員Andrej Karpathy也直接下場，分享了一段自己的親身經歷。前一段時間，Gemini模型一度在LMArena排名第一，遠超第二名。但Karpathy切換使用後，感覺還不如他之前用的模型。相反，大約在同一時間，他的個人體驗是Claude 3.5是最好的，但在LMArena上的排名卻很低。他還發現一些其他相對隨機的模型，通常小得可疑，據他所知幾乎沒有現實世界的知識，但排名也很高。他開始懷疑，Google等AI巨頭在暗中操縱LMArena的排名。要知道，就在本月初，就有報導稱LMArena可能正在成立新公司，籌集資金。在這個時候曝出醜聞，不知對此是否會有影響。業內聯名痛斥巨頭巧鑽漏洞，暗箱操作這篇報告，研究者花費了5個月時間分析了競技場上的280萬場戰鬥，涵蓋了43家提供商的238個模型。結果表明，少數提供商實施的優惠政策，導致過度擬合競技場特定指標，而不是真正的AI進步。因為存在未公開的私下測試機制，少數公司能在模型公開發佈前測試多個變體，甚至選擇性地撤回低分模型的結果。如此一來，公司便可以「挑三撿四」，只公佈表現最好的模型得分，從而讓LMArena的排行榜的結果出現嚴重「偏見」。而這種優勢，會隨著變體數量的增加，而持續疊加。私下測試模型變體數量對最佳預期得分的影響「best-of-N」提交策略對排名的模擬影響允許撤回評分會導致提供商有意抬高競技場分數比如說，Meta在發佈Llama 4之前，曾私下在LMArena上測試了27個LLM變體。而最終只公佈了其中一個分數。巧的是，這個模型恰恰就在LMArena上名列前茅。Cohere的AI研究副總裁、論文合著者Sara Hooker在接受外媒採訪時抱怨說：「只有少數公司會被告知可以私下測試，而且部分公司獲得的私下測試機會，遠超其他公司。」「這就是赤裸裸的兒戲。」從「行業標準」到「人人喊打」？與此同時，研究者還發現：閉源商業模型（如Google、OpenAI的模型）在LMArena中參與次數更多與之對比，開源模型（開放權重）不僅對戰次數較少，而且更容易在Arena中被移除這導致了一個長期的資料訪問不平等現象不同模型提供者的最大觀測採樣率採樣率反映了模型在LMArena中被普通使用者看到的頻率，也直接決定了該模型開發者能獲取多少使用者互動資料。LMArena是一個開放的社區資源，提供免費反饋，但61.3%的所有資料都流向了特定的模型提供商。具體來說，他們估算：Google和OpenAI的模型分別獲得了Arena上約19.2%和20.4%的全部使用者對戰資料而83個開源模型的總資料佔比僅為29.7%模型開發者的資料可用性情況而保守估計那怕是有限的額外資料，也可能帶來高達112%的相對性能提升。這進一步說明模型在Arena上的表現很容易被「過擬合」——即最佳化的是排行榜表現，而不是真正的通用模型質量。值得注意的是，LMArena的建構和維護依賴於組織者和開源社區的大量努力。組織者可以通過修訂他們的政策來繼續恢復信任。論文還非常清楚地提出了五個必要的改變：公開全部測試限制變體數量確保移除模型的公平性公平抽樣提高透明性官方回應論文有大量錯誤和詆毀鋪天蓋地的質疑襲來，LMArena火速出來回應了！它的官號第一時間發推回應稱，這項研究存在諸多事實錯誤和誤導性陳述，充滿了「不確定和可疑的分析」。而他們的說法，得到了GoogleDeepMind首席研究員Armand Joulin的聲援。他表示，論文中的一些資料是不精準的，比如Google只向LMArena發過一個Gemma 3的模型，進行預發佈測試。具體來說，關於某些模型提供商未得到公平對待的說法：這不符合事實。LMArena表示他們一直盡力滿足所有收到的評估請求。如果一個模型提供商選擇提交比另一個模型提供商更多的測試，這並不意味著後者受到了不公平對待。每個模型提供商對如何使用和重視人類偏好都有不同的選擇。事實錯誤：LMArena的模擬（如圖7/8所示）存在缺陷。這就像說：「NBA的平均三分球命中率是35%。庫裡的三分球命中率是NBA中最高的，為42%。這不公平，因為他來自NBA球員的分佈，而他們都有相同的潛在均值。」論文中的許多數字與實際情況不符。LMArena在幾天前發佈了部落格，公佈了不同提供商的測試模型的實際統計資料。例如，開源模型佔40%，而不是8.8%！所謂112%性能提升的說法具有誤導性，論文的結果基於LLM-judge基準，而不是Arena中的實際人工評估。LMArena的政策並非「秘而不宣」。早在一年多前，LMArena就設計並公開分享了他們的政策。模型提供商不僅僅選擇「要披露的最佳分數」。公共排行榜上列出的任何模型都必須是所有人都可以使用的正式版本，並且計畫提供長期支援。LMArena會使用新的資料對模型進行至少一個月的持續測試。LMArena的政策中一直明確說明了這些要點。顯示無法通過API或開源權重公開獲取的預發佈模型的分數毫無意義，因為社區無法使用這些模型或自行進行測試。這將違反LMArena一年多以前制定的政策。LMArena制定這項規則正是為了明確這一點：如果模型在排行榜上，則必須保證可用性。模型下架並非不公正或缺乏透明度，這與事實不符。排行榜旨在反映社區對最佳AI模型進行排名的興趣。LMArena還會下架不再向公眾提供的模型。這些標準已在我們的政策中公開聲明，並且在社區進行私下測試期間始終有效。要不，換個平台試試？正如貝佐斯所說：「當資料與個人經驗不一致時，個人經驗通常是正確的。」Karpathy也有同感。他認為這些大團隊在LMArena分數上投入了太多的內部關注和決策精力。不幸的是，他們得到的不是更好的整體模型，而是更擅長在LMArena上獲得高分的模型，而不管模型是否更好。對此Karpathy表示，既然LMArena已經被操控了，那就給大家推薦一個有望成為「頂級評測」的新排行榜吧！它就是——OpenRouterAI。OpenRouter允許個人/公司在不同LLM提供商之間快速切換API。他們都有真實的用例（並非玩具問題或謎題），有自己的私有評測，並且有動力做出正確的選擇，因此選擇某個LLM就是在為該模型的性能和成本的組合投票。Karpathy表示，自己非常看好OpenRouter成為一個難以被操控的評測平台。創始成員離開初心或已不在如今的爆火，或許讓人早已忘記，LMArena最初只是UC Berkeley、斯坦福、UCSD和CMU等高校的幾位學生自己做出來的項目。和傳統評測不同，LMArena採用的則是一套完全不同的方式——使用者提出問題，兩個匿名AI模型給出答案，然後評判那個回答更好，並最終將這些評分被彙總到一個排行榜上。憑藉著這套創新性的方法，它一舉成為了當時幾乎唯一一個能較為客觀地反映LLM性能的榜單。在輸入框中輸入問題，兩個不同的模型A和B同時回答。之後，使用者可選A或B的不同評價：A更好，B更好，平局，都不好隨著科技公司投入數百億美元押注AI將成為未來幾十年的決定性技術，LMArena也迅速走紅。在吸引客戶和人才方面，任何領先競爭對手的優勢都可能帶來重大影響，這就是為什麼眾多科技高管和工程師像華爾街交易員盯盤一樣密切關注LMArena。之後的故事，大家就都知道了。問題在於，作為課餘項目的LMArena本身並不完善。之所以能在持續的爆炸性增長下不失客觀性，靠的是創始人們堅定的初心。隨著創始成員陸續畢業，新成員的加入，LMArena似乎也離它最初的路線，越來越遠。一方面，由於投票不公開、以及那些模型應該進入競技場是由某幾位成員獨斷決定的，導致LMArena自身機制就缺乏透明性。另一方面，新團隊在某個時間點突然決定，把LMArena開放給頭部大公司做匿名模型測試。這幫摸爬滾打了多年的老油條們，顯然不會錯失這一良機。基於對大量實測資料的分析，這些技術大佬們很快就「掌握」了LMArena的調性，紛紛刷起了高分。從此，質疑聲便開始此起彼伏。 (新智元)

Claude 3.5首戰復現21%頂會論文，人類博士無法取代！ OpenAI：AI全是草台班子

AI若能自主復現頂尖科研論文，未來科研將被掀翻天。 OpenAI最新框架PaperBench正為此生，讓AI智能體從頭開始復現ICML 2024 20篇優秀論文，只有Claude 3.5 Sonnet拔得頭籌，但仍無法超越ML博士水準。AI智能體，能否復現頂會中重磅的AI研究？今天，OpenAI團隊發表了全新框架PaperBench，便可評估AI智能體復現頂尖研究的基礎能力。論文地址：https://openai.com/index/paperbench/要求是，AI智能體需從0開始復現20篇ICML 2024 Spotlight和Oral論文，包括理解論文核心文獻、開發可運行程式碼庫，以及執行實驗並驗證結果。為了客觀評估AI成果，OpenAI聯手每篇ICML論文作者開發了「評估標準」，將每個複制任務層次化分解為具有明確評分標準的較小子任務。總共，PaperBench包含8,316個可單獨評分的任務。結果發現，只有Claude 3.5 Sonnet（New）拿下了最高分21.0%，o1-high得分13.2%，DeepSeek-R1是6%，GPT-4o是4.1%。遺憾的是，即便是最領先的LLM，仍無法超越機器學習博士。目前，OpenAI將PaperBench的所有程式碼開源。GitHub網址：https://github.com/openai/preparednessAI挑戰復現ICML 2024大作PaperBench的目標，直指AI智能體的科研潛力。若要完整復現ICML 2024 20篇優秀的論文，意味著AI不僅需要理解論文核心思想，還得自主開發代碼庫、運行實驗，甚至是排除故障。要知道，這是連人類研究員需要好幾天，才能完成的高難度任務。這項研究的主要貢獻包括：PaperBench：一個包含20篇ML研究論文和經作者批准的評分標準的基準測試，以及使用基於LLM評估的自動評分工作流程。PaperBench Code-Dev：基準測試的一個更輕量級的變體，放寬了PaperBench的一些要求，使設置和評估對更廣泛的社區更易於使用。JudgeEval：一個包含人類評分提交結果的資料集，可用作開發和評估自動評估的輔助工具。在PaperBench上對SOTA模型的評估：對幾個前沿AI智能體執行長周期任務和機器學習研發能力的綜合評估。更重要的是，PaperBench不僅是一個學術實驗，它還與其他AI安全框架緊密關聯。它可用作OpenAI的準備框架中的模型自主性度量、Anthropic負責任擴展政策中的自主能力指標，以及Google DeepMind的前沿安全框架中的機器學習研發評估工具。PaperBench：20篇論文，8316個任務如上所述，PaperBench選取了來自ICML 2024中20篇Spotlight和Oral論文，主要覆蓋了12個主題。其中包括，深度強化學習、魯棒性和機率方法。而且，每篇論文都配備了詳細的評分標準，總計8,316個可單獨評估的評分項目。這些標準均由每篇論文原作者與OpenAI共同製訂，確保評估過程中的精準性和權威性。評分標準採用層次結構，將複雜的複現目標分解為細粒度子任務。任務+復現對於PaperBench中的每個樣本，AI智能體會收到論文和論文澄清說明的附錄。候選智能體必須提交一個包含復現論文實證結果所需的所有代碼的代碼庫，而且代碼庫根目錄必須包含一個reproduce.sh檔案，作為執行所有必要代碼以復現論文結果的入口點。當提交的reproduce.sh能夠在全新環境中成功復現論文中報告的實證結果時，AI智能體便成功完成複現任務。樹級評分在基準測試中，每篇論文都配有一個評分標準，明確規定了完整論文複製的評估要求。評分標準被設定為一個要求層級結構，每個葉節點（leaf node）指定一個明確的通過/失敗標準（見圖2），並且每個節點都根據其相對於同級節點的重要性被手動賦予了權重。對於一個葉節點標準，評估者會判斷提交內容是否符合其要求，如果滿足則給予1分，否則給0分。當所有葉節點都被評分後，父節點（parent node）的分數將等於其所有子節點分數的加權平均值。這個計分過程會一直向上傳遞到樹的根節點（root），根節點的分數即被視為該提交的最終複製分數（Replication Score）。換句話說，每個提交的評分是基於所有滿足的評分標準要求的權重調整後的比例，其中100%表示完美複製，即滿足了所有葉節點的要求。目前，論文中主要評估指標是所有論文的平均複製分數。每個葉節點有三種可能的需求類型之一，這決定了其評分方式。結果匹配（Result Match）葉節點評估已執行的提交是否包含複製論文中特定結果的證據。執行（Execution）葉節點評估運行reproduce.sh指令碼時是否產生了某些特定的執行結果。代碼開發（Code Development）葉節點評估候選者的原始碼是否包含某些需求的正確實現。可以上網，但不能查看原作者代碼庫PaperBench設計為與智能體支援框架（agent scaffolds）無關，因此研究團隊對智能體的運行環境沒有特定要求。然而，基準測試確實制定了一些規則來確保公平比較：智能體可以瀏覽互聯網，但不得使用OpenAI提供的每篇論文黑名單中網站的資源。每篇論文的黑名單包括作者自己的程式碼庫和任何其他線上複製實現。智能體可使用的資源，如執行階段間和計算能力，不受任何限制。開發者應為智能體提供必要的線上服務API金鑰（例如，用於下載資料集的HuggingFace憑證）。對於實驗，OpenAI還建構了一個簡單的後處理監控工具，用於檢查智能體日誌中是否出現黑名單URL，發現可疑情況後會提交給人工審計，以取消使用黑名單資源的任何提交資格。LLM評判成本降至10美金，比專家更有效率面對如此複雜的任務，人工評分顯然不現實。一篇論文的複現嘗試，通常需要人類專家數十小時來評估。為此，OpenAI團隊開發了一個基於大模型自動評判系統，並推出了輔助工具JudgeEval，用於驗證自動評判者的表現。對於給定的提交內容，評判系統SimpleJudge會獨立地對評分標準中的每個葉節點進行評分。針對特定葉節點，評判系統會接收論文的Markdown格式文字、完整的評分標準JSON檔案、葉節點的具體要求和提交內容作為提示詞。如下圖5所示，對於PaperBench Code-Dev，每篇論文的成本降至約10美元，證明了比聘請專家進行人工評分更加經濟且有效率。Claude 3.5 Sonnet得分最高實驗中，研究人員對GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet（New）和Gemini 2.0 Flash在所有20篇論文上進行了評估，每篇論文進行了3次運行。而且，他們每個智能體設定了最長12小時的執行階段限。如下表4所示，展示了各模型的平均復現分數。其中，Claude 3.5 Sonnet表現最出色，得分達到21.0%。 OpenAI o1表現較弱，得分為13.2%，其他模型表現不佳，得分均低於10%。為了更好地理解智能體性能，研究人員手動檢查了幾個智能體的運行日誌。他們發現，除了Claude 3.5 Sonnet外，所有模型都經常提前結束任務，聲稱它們要麼已完成整個複現工作，要麼遇到了無法解決的問題。所有智能體都未能製訂有效策略，考慮如何在有限時間內最優地復現論文。我們也觀察到o3-mini在工具使用上經常遇到困難。這些失敗模式表明當前模型在執行長期規劃任務方面存在弱點：儘管在製訂和編寫多步驟計劃方面表現出充分的能力，但模型未能實際採取一系列行動來執行這些計劃。迭代智能體鑑於模型往往無法充分利用可用的全部時間，研究人員還測試了BasicAgent的一個變體。這個變體透過移除智能體提前結束任務的能力，強制其在全部可用時間內持續運行，並使用經過優化的提示詞來鼓勵模型以逐步方式工作。他們將這個智能體稱為IterativeAgent。研究人員使用IterativeAgent對o1、o3-mini和Claude 3.5 Sonnet進行了測試，如下表5所示。他們發現使用IterativeAgent後，o1和o3-mini的得分顯著提升。值得注意的是，在使用BasicAgent時，Claude 3.5 Sonnet的表現優於o1，但在使用IterativeAgent時，其表現卻不如o1。這顯示為IterativeAgent優化的提示詞，對OpenAI o系列模型有著不同程度的適用性。研究人員推斷，如果對BasicAgent進行類似修改，同樣防止其提前結束任務，可能會使Claude 3.5 Sonnet的表現超過使用IterativeAgent的o1。人類拿下41.4%此外，研究人員還招募了8位目前正在攻讀/已完成ML博士學位的參與者來挑戰3篇論文的子集。這裡，他們採用了AI智能體類似的條件來評估參與者。參與者會拿到PDF和Markdown格式的論文，以及論文的附錄和盡可能接近用於AI智能體的指令，並可使用單一輝達A10 GPU。參與者兼職工作，有四個星期的時間窗口來取得盡可能多的進展。另外，團隊對使用IterativeAgent的o1進行了36小時的延長運行，每小時保存快照，並對1、3、6、12和36小時時拍攝的快照進行評分。如圖3所示，比較了o1的這次36小時延長運轉與人類隨時間的表現。研究觀察到，o1在復現嘗試的早期階段最初優於人類基準，但在24小時後，人類開始超過AI智能體。智能體最初優於人類但在更長時間跨度內落後的趨勢與先前結果一致。ML博士在48小時內（3次嘗試取最佳）拿下了41.4%高分，而統一子集上，o1僅為26.6%分。這表明，與人類專家相比，AI儘管進步顯著但仍有差距。此外，研究人員還推出了一個輕量級變體PaperBench Code-Dev，在這個版本中，o1的得分飆升至43.4%，顯示出AI在簡化任務上的潛力。結論21%得分或許只是一個開始。PaperBench不僅揭示了AI智能體在科學研究中的潛力，也揭露它們在長期規劃任務中的限制。下一步，隨著模型能力提升，它們能夠接近甚至超越41.4%人類基準？參考資料：https://openai.com/index/paperbench/ （新智元）

Fortune雜誌─新能源汽車決勝局，他想成為最大的贏家

圖片來源：視覺中國十多年前在百度IDL （Institute of Deep Learning）為推廣深度學習而開了微博帳戶的余凱，在微博沉寂多年後拾起這個帳號，並在自己的實名ID後加上“地平線民工”的後綴。他最近一條微博是1月11日發佈的這段話：“2024年全世界發表的AI論文中，地平線與華中科技大學合作發表的Vision Mamba獲得引用率全球排名第三，提出全新一代的視覺主幹網路！值得一提的是，引用率前十名有三篇論文來自中國，其中也包括DeepSeek的一篇論文。” 顯然，這位在微博上重新活躍的中國深度學習技術領軍人物，在帶領自己創立的硬科技公司去年10月登陸港股創中國科技公司過去三年來最大規模IPO後，又開始嘗試著走到距離C端更近的位置。 “雖然我們是一個to B的生意，但是我們也要在乎在使用者心目中的品牌，早年在PC時代，英特爾Inside‘噹噹噹當’（聲音）深入人心，其實就是在C端給人造成這種品牌印象。我在90年代讀本科（猶豫）選擇AMD晶片還是英特爾晶片的時候，我真的不由自主地選擇了英特爾的晶片，所以C端的品牌我認為是很重要的。”現任地平線創始人兼CEO的余凱說。